은닉 마르코프 모델

작성자

익명

작성일

2026.06.20

조회수

버전

은닉 마르코프 모델 HMM 자연어 처리 확률 모델 비터비 알고리즘 바움-웰치 알고리즘 시퀀스 데이터 중급

은닉 마르코프 모델 (Hidden Markov Model, HMM)

개요

은닉 마르코프 모델(Hidden Markov Model, 약자 HMM)은 통계적 확률 모델의 일종으로, 관찰할 수 없는(은닉된) 상태들이 마르코프 성질을 따르며, 이 상태들이 관찰 가능한 출력 신호를 생성한다고 가정하는 모델입니다. 자연어 처리(NLP), 음성 인식, 생정보학, 시계열 분석 등 다양한 분야에서 시퀀스 데이터의 패턴을 인식하고 예측하는 데 널리 사용됩니다.

HMM의 핵심 아이디어는 "현재의 관찰값은 직전 상태에만 의존하며, 직전 상태는 그 이전의 상태들과 독립적"이라는 마르코프 가정(Markov Assumption)에 기반합니다. 그러나 실제 시스템의 내부 상태(예: 문장의 품사 태그, 음성의 음소)는 직접 관측할 수 없기 때문에 이를 '은닉(Hidden)' 상태라고 부릅니다.

기본 구성 요소

은닉 마르코프 모델은 다음 세 가지 주요 확률 분포로 정의됩니다.

상태 전이 확률 (State Transition Probabilities)
- 한 은닉 상태에서 다른 은닉 상태로 전이할 확률을 나타냅니다.
- 행렬 $A$로 표현되며, $a_{ij} = P(q_{t+1} = S_j | q_t = S_i)$로 정의됩니다.
- 여기서 $S_i$와 $S_j$는 가능한 상태들의 집합입니다.
관측 출력 확률 (Observation Emission Probabilities)
- 특정 은닉 상태에서 특정 관측값이 발생할 조건부 확률을 나타냅니다.
- 행렬 $B$로 표현되며, $b_j(k) = P(o_t = v_k | q_t = S_j)$로 정의됩니다.
- 이는 은닉 상태가 관측값을 '방출(Emit)'한다고 보는 관점에서 유래했습니다.
초기 상태 확률 (Initial State Probabilities)
- 시퀀스의 시작 시점에서 각 은닉 상태에 있을 확률을 나타냅니다.
- 벡터 $\pi$로 표현되며, $\pi_i = P(q_1 = S_i)$로 정의됩니다.

따라서, HMM은 파라미터 집합 $\lambda = (A, B, \pi)$로 완전히 정의됩니다.

HMM의 세 가지 기본 문제

HMM을 활용하기 위해 해결해야 할 세 가지 핵심 문제는 다음과 같습니다.

1. 평가 문제 (Evaluation Problem)

입력: 모델 파라미터 $\lambda$와 관측 시퀀스 $O = (o_1, o_2, ..., o_T)$ 목표: 관측 시퀀스가 모델 $\lambda$에 의해 생성될 확률 $P(O|\lambda)$를 계산한다. 해결 방법: 전진 알고리즘(Forward Algorithm) 또는 후진 알고리즘(Backward Algorithm)을 사용하여 효율적으로 계산합니다. 단순한 브루트 포스 방식보다 지수적으로 빠른 $O(N^2T)$의 시간 복잡도를 가집니다.

2. 디코딩 문제 (Decoding Problem)

입력: 모델 파라미터 $\lambda$와 관측 시퀀스 $O$ 목표: 가장 가능성 있는 은닉 상태 시퀀스 $Q = (q_1, q_2, ..., q_T)$를 찾는다. 해결 방법: 비터비 알고리즘(Viterbi Algorithm)을 사용합니다. 이는 동적 프로그래밍(Dynamic Programming) 기법을 적용하여 최적의 경로(상태 시퀀스)를 효율적으로 탐색합니다. 자연어 처리에서는 품사 태깅(Part-of-Speech Tagging)이나 개체명 인식(Named Entity Recognition)에 주로 활용됩니다.

3. 학습 문제 (Learning Problem)

입력: 관측 시퀀스 $O$ (상태 시퀀스는 알려지지 않음) 목표: 모델 파라미터 $\lambda = (A, B, \pi)$를 최적화하여 $P(O|\lambda)$를 최대화한다. 해결 방법: 바움-웰치 알고리즘(Baum-Welch Algorithm) 또는 EM 알고리즘(Expectation-Maximization Algorithm)의 특수한 경우인 전진-후진 알고리즘(Forward-Backward Algorithm)을 사용합니다. 이는 관측 데이터만으로 모델의 매개변수를 반복적으로 추정합니다.

자연어 처리에서의 응용

HMM은 자연어 처리의 초기 단계에서 가장 성공적으로 적용된 모델 중 하나입니다.

품사 태깅 (POS Tagging): 문장의 각 단어가 명사, 동사, 형용사 등 어떤 품사인지 결정합니다. 예를 들어, "나는 학교에 간다"에서 '나'는 대명사, '학교'는 명사로 태깅됩니다.
개체명 인식 (NER): 텍스트 내에서 인명, 지명, 조직명 등의 고유 명사를 식별합니다.
단어 예측 및 언어 모델링: 문맥을 고려하여 다음에 올 단어를 확률적으로 예측하는 데 사용되기도 했습니다. (현재는 RNN, Transformer 모델에 의해 대체되고 있으나, 여전히 기초적인 확률적 모델로 중요성을 가집니다.)

장단점 및 한계

장점

수학적 엄밀성: 확률론적 기반이 명확하여 해석이 용이합니다.
계산 효율성: 전진-후진 알고리즘과 비터비 알고리즘 덕분에 대규모 시퀀스 데이터에서도 비교적 빠르게 처리할 수 있습니다.
라벨 없는 데이터 학습: 학습 문제에서 정답 레이블(은닉 상태)이 필요하지 않아, 라벨링이 어려운 대량의 데이터에 적용 가능합니다.

단점 및 한계

마르코프 가정의 제약: 현재 상태가 오직 직전 상태에만 의존한다는 가정은 자연어의 긴 범위 의존성(Long-range Dependency)을 포착하기 어렵게 만듭니다.
관측 독립성 가정: 각 관측값이 주어진 상태에 대해 다른 관측값들과 독립적이라고 가정합니다. 이는 실제 언어에서 단어 간의 강한 상관관계를 무시하게 만듭니다.
희소성 문제: 희귀한 상태 전이나 관측값이 발생하면 확률이 0이 되는 문제가 발생할 수 있습니다. 이를 해결하기 위해 라플라스 평활화(Laplace Smoothing) 등의 기법이 필요합니다.

관련 문서 및 참고 자료

마르코프 체인 (Markov Chain): HMM의 기초가 되는 확률 과정.
크로닉 필드 모델 (Conditional Random Field, CRF): HMM의 단점을 보완한 지도 학습 모델로, 현재 자연어 처리에서 더 널리 쓰입니다.
RNN (Recurrent Neural Network) / LSTM: 시퀀스 데이터의 장기 의존성을 학습하기 위해 개발된 신경망 구조.
Transformer: 자기 주의 메커니즘(Self-Attention)을 통해 HMM의 한계를 극복한 최신 아키텍처.

참고 문헌

Rabiner, L. R. (1989). "A tutorial on hidden Markov models and selected applications in speech recognition". Proceedings of the IEEE.
Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed. draft).

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# 은닉 마르코프 모델 (Hidden Markov Model, HMM)

## 개요

**은닉 마르코프 모델**(Hidden Markov Model, 약자 **HMM**)은 통계적 확률 모델의 일종으로, 관찰할 수 없는(은닉된) 상태들이 마르코프 성질을 따르며, 이 상태들이 관찰 가능한 출력 신호를 생성한다고 가정하는 모델입니다. 자연어 처리(NLP), 음성 인식, 생정보학, 시계열 분석 등 다양한 분야에서 시퀀스 데이터의 패턴을 인식하고 예측하는 데 널리 사용됩니다.

HMM의 핵심 아이디어는 "현재의 관찰값은 직전 상태에만 의존하며, 직전 상태는 그 이전의 상태들과 독립적"이라는 **마르코프 가정(Markov Assumption)**에 기반합니다. 그러나 실제 시스템의 내부 상태(예: 문장의 품사 태그, 음성의 음소)는 직접 관측할 수 없기 때문에 이를 '은닉(Hidden)' 상태라고 부릅니다.

---

## 기본 구성 요소

은닉 마르코프 모델은 다음 세 가지 주요 확률 분포로 정의됩니다.

1.  **상태 전이 확률 (State Transition Probabilities)**
    *   한 은닉 상태에서 다른 은닉 상태로 전이할 확률을 나타냅니다.
    *   행렬 $A$로 표현되며, $a_{ij} = P(q_{t+1} = S_j | q_t = S_i)$로 정의됩니다.
    *   여기서 $S_i$와 $S_j$는 가능한 상태들의 집합입니다.

2.  **관측 출력 확률 (Observation Emission Probabilities)**
    *   특정 은닉 상태에서 특정 관측값이 발생할 조건부 확률을 나타냅니다.
    *   행렬 $B$로 표현되며, $b_j(k) = P(o_t = v_k | q_t = S_j)$로 정의됩니다.
    *   이는 은닉 상태가 관측값을 '방출(Emit)'한다고 보는 관점에서 유래했습니다.

3.  **초기 상태 확률 (Initial State Probabilities)**
    *   시퀀스의 시작 시점에서 각 은닉 상태에 있을 확률을 나타냅니다.
    *   벡터 $\pi$로 표현되며, $\pi_i = P(q_1 = S_i)$로 정의됩니다.

따라서, HMM은 파라미터 집합 $\lambda = (A, B, \pi)$로 완전히 정의됩니다.

---

## HMM의 세 가지 기본 문제

HMM을 활용하기 위해 해결해야 할 세 가지 핵심 문제는 다음과 같습니다.

### 1. 평가 문제 (Evaluation Problem)
**입력:** 모델 파라미터 $\lambda$와 관측 시퀀스 $O = (o_1, o_2, ..., o_T)$
**목표:** 관측 시퀀스가 모델 $\lambda$에 의해 생성될 확률 $P(O|\lambda)$를 계산한다.
**해결 방법:** **전진 알고리즘(Forward Algorithm)** 또는 후진 알고리즘(Backward Algorithm)을 사용하여 효율적으로 계산합니다. 단순한 브루트 포스 방식보다 지수적으로 빠른 $O(N^2T)$의 시간 복잡도를 가집니다.

### 2. 디코딩 문제 (Decoding Problem)
**입력:** 모델 파라미터 $\lambda$와 관측 시퀀스 $O$
**목표:** 가장 가능성 있는 은닉 상태 시퀀스 $Q = (q_1, q_2, ..., q_T)$를 찾는다.
**해결 방법:** **비터비 알고리즘(Viterbi Algorithm)**을 사용합니다. 이는 동적 프로그래밍(Dynamic Programming) 기법을 적용하여 최적의 경로(상태 시퀀스)를 효율적으로 탐색합니다. 자연어 처리에서는 **품사 태깅(Part-of-Speech Tagging)**이나 **개체명 인식(Named Entity Recognition)**에 주로 활용됩니다.

### 3. 학습 문제 (Learning Problem)
**입력:** 관측 시퀀스 $O$ (상태 시퀀스는 알려지지 않음)
**목표:** 모델 파라미터 $\lambda = (A, B, \pi)$를 최적화하여 $P(O|\lambda)$를 최대화한다.
**해결 방법:** **바움-웰치 알고리즘(Baum-Welch Algorithm)** 또는 **EM 알고리즘(Expectation-Maximization Algorithm)**의 특수한 경우인 전진-후진 알고리즘(Forward-Backward Algorithm)을 사용합니다. 이는 관측 데이터만으로 모델의 매개변수를 반복적으로 추정합니다.

---

## 자연어 처리에서의 응용

HMM은 자연어 처리의 초기 단계에서 가장 성공적으로 적용된 모델 중 하나입니다.

*   **품사 태깅 (POS Tagging):** 문장의 각 단어가 명사, 동사, 형용사 등 어떤 품사인지 결정합니다. 예를 들어, "나는 학교에 간다"에서 '나'는 대명사, '학교'는 명사로 태깅됩니다.
*   **개체명 인식 (NER):** 텍스트 내에서 인명, 지명, 조직명 등의 고유 명사를 식별합니다.
*   **단어 예측 및 언어 모델링:** 문맥을 고려하여 다음에 올 단어를 확률적으로 예측하는 데 사용되기도 했습니다. (현재는 RNN, Transformer 모델에 의해 대체되고 있으나, 여전히 기초적인 확률적 모델로 중요성을 가집니다.)

---

## 장단점 및 한계

### 장점
*   **수학적 엄밀성:** 확률론적 기반이 명확하여 해석이 용이합니다.
*   **계산 효율성:** 전진-후진 알고리즘과 비터비 알고리즘 덕분에 대규모 시퀀스 데이터에서도 비교적 빠르게 처리할 수 있습니다.
*   **라벨 없는 데이터 학습:** 학습 문제에서 정답 레이블(은닉 상태)이 필요하지 않아, 라벨링이 어려운 대량의 데이터에 적용 가능합니다.

### 단점 및 한계
*   **마르코프 가정의 제약:** 현재 상태가 오직 직전 상태에만 의존한다는 가정은 자연어의 긴 범위 의존성(Long-range Dependency)을 포착하기 어렵게 만듭니다.
*   **관측 독립성 가정:** 각 관측값이 주어진 상태에 대해 다른 관측값들과 독립적이라고 가정합니다. 이는 실제 언어에서 단어 간의 강한 상관관계를 무시하게 만듭니다.
*   **희소성 문제:** 희귀한 상태 전이나 관측값이 발생하면 확률이 0이 되는 문제가 발생할 수 있습니다. 이를 해결하기 위해 라플라스 평활화(Laplace Smoothing) 등의 기법이 필요합니다.

---

## 관련 문서 및 참고 자료

*   **마르코프 체인 (Markov Chain):** HMM의 기초가 되는 확률 과정.
*   **크로닉 필드 모델 (Conditional Random Field, CRF):** HMM의 단점을 보완한 지도 학습 모델로, 현재 자연어 처리에서 더 널리 쓰입니다.
*   **RNN (Recurrent Neural Network) / LSTM:** 시퀀스 데이터의 장기 의존성을 학습하기 위해 개발된 신경망 구조.
*   **Transformer:** 자기 주의 메커니즘(Self-Attention)을 통해 HMM의 한계를 극복한 최신 아키텍처.

### 참고 문헌
1.  Rabiner, L. R. (1989). "A tutorial on hidden Markov models and selected applications in speech recognition". *Proceedings of the IEEE*.
2.  Jurafsky, D., & Martin, J. H. (2023). *Speech and Language Processing* (3rd ed. draft).

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen/qwen3.6-35b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나